ETA (Efficiency through Thinking Ahead, 미리 생각하기, 2025-06-09)

2025-12-14, G30DR

1. 서론 (Introduction)

1.1 자율주행 기술의 패러다임 전환과 현재의 한계

현대 자율주행 기술은 규칙 기반(Rule-based)의 모듈형 시스템에서 딥러닝 기반의 데이터 중심(Data-driven) 접근 방식으로 급격한 패러다임 전환을 겪고 있다. 초기 자율주행 시스템은 인지(Perception), 측위(Localization), 예측(Prediction), 계획(Planning), 제어(Control)가 각각 독립적인 모듈로 구성되어 순차적으로 정보를 처리했다. 그러나 이러한 방식은 각 모듈 간의 오차 전파(Error Propagation) 문제와 복잡한 도심 환경에서의 일반화 능력 부족이라는 한계에 봉착했다. 이에 따라 센서 입력부터 제어 출력까지 하나의 신경망으로 연결하는 엔드투엔드(End-to-End) 자율주행 모델이 대안으로 부상했다. 특히, 자연어 처리(NLP) 분야에서 혁명을 일으킨 트랜스포머(Transformer) 아키텍처와 이를 기반으로 한 대규모 언어 모델(LLM), 그리고 시각-언어 모델(VLM)의 등장은 자율주행 AI가 단순히 사물을 인식하는 것을 넘어, 복잡한 교통 상황의 맥락(Context)을 이해하고 추론(Reasoning)할 수 있는 가능성을 열어주었다.1

그러나 대규모 모델(Large Models)을 자율주행이라는 실시간(Real-time) 시스템에 적용하는 것은 치명적인 딜레마를 수반한다. 바로 ‘추론 지연(Inference Latency)’ 문제이다. 수십억 개 이상의 파라미터를 가진 대규모 모델은 뛰어난 성능과 일반화 능력을 보여주지만, 단일 프레임을 처리하는 데 수백 밀리초(ms)가 소요되는 경우가 빈번하다. 시속 60km로 주행하는 차량은 100ms 동안 약 1.67m를 이동하며, 고속도로 환경에서는 이 거리가 더욱 늘어난다. 주행 중 발생하는 0.1초의 지연은 사고를 회피하느냐 충돌하느냐를 결정짓는 결정적인 시간이다. 따라서 기존 연구들은 대규모 모델의 지능을 활용하기 위해 모델 크기를 억지로 줄이거나(Quantization, Pruning), 추론 주기를 길게 가져가는 타협책을 사용해 왔다. 이는 결과적으로 대규모 모델 본연의 성능을 저하시키거나, 급변하는 도로 상황에 기민하게 반응하지 못하는 안전 공백을 초래했다.1

1.2 ETA(Efficiency through Thinking Ahead)의 제안 배경 및 연구 목적

이러한 배경 속에서 Hamdan 등(2025)이 ICCV 2025에서 발표한 “ETA: Efficiency through Thinking Ahead“는 자율주행 시스템의 연산 효율성을 근본적으로 재정의하는 새로운 접근법을 제시한다. ETA는 모델 자체를 경량화하여 성능을 희생하는 대신, ’연산의 시점’을 재배치하는 전략을 취한다. 즉, 현재 시점( $t$ )에 필요한 고비용의 인지 및 추론 연산을 과거 시점( $t-\Delta$ )으로 앞당겨 수행함으로써, 실제 $t$ 시점에서는 최소한의 연산만으로 대규모 모델의 통찰력을 활용하는 것이다. 이는 “미리 생각하기(Thinking Ahead)“라는 인간의 인지적 특성을 모방한 것으로, 시스템의 응답성(Responsiveness)과 지능(Intelligence)을 동시에 확보하려는 시도이다.5

본 보고서는 ETA 모델의 기술적 아키텍처와 성능을 심층적으로 분석하고, 이것이 자율주행 분야뿐만 아니라 엠바디드 AI(Embodied AI) 및 실시간 의사결정 시스템 전반에 미치는 영향을 고찰한다. 특히, 본 연구는 ETA의 설계 철학이 인지과학의 ‘이중 처리 이론(Dual Process Theory)’ 및 경영 전략의 ‘OODA 루프’ 등 다양한 학제 간 이론과 어떻게 연결되는지 탐구함으로써, ETA가 단순한 알고리즘 개선을 넘어선 하나의 ’효율성 패러다임’임을 규명하고자 한다.

2. 이론적 배경 및 사상적 기반 (Theoretical Foundation)

ETA의 기술적 성취를 온전히 이해하기 위해서는 그 기저에 깔린 인지과학적 원리와 전략적 사고 프레임워크에 대한 이해가 선행되어야 한다. ETA는 기계적 시스템이지만, 그 설계 원칙은 인간이 복잡한 환경에서 효율적으로 생존하고 의사결정을 내리는 방식과 놀라울 정도로 유사하다.

2.1 인지과학적 토대: 이중 처리 이론 (Dual Process Theory)

ETA 아키텍처의 가장 직접적인 영감은 인지심리학자 대니얼 카너먼(Daniel Kahneman)이 체계화한 ’이중 처리 이론(Dual Process Theory)’에서 비롯된다.1 이 이론은 인간의 사고 과정을 크게 두 가지 시스템으로 구분한다.

특성	시스템 1 (System 1)	시스템 2 (System 2)
속도	빠름 (Fast)	느림 (Slow)
의식 수준	무의식적, 자동적 (Automatic)	의식적, 분석적 (Deliberate)
에너지 소모	낮음 (Low Effort)	높음 (High Effort)
역할	직관, 반사 행동, 익숙한 패턴 처리	복잡한 계산, 논리적 추론, 낯선 상황 대처
ETA 대응	Responsive Small Model	Predictive Large Model

인간 운전자는 주행 중 대부분의 시간을 시스템 1에 의존한다. 차선을 유지하거나 앞차와의 거리를 조절하는 행위는 숙련된 운전자에게 거의 무의식적으로 일어난다. 그러나 복잡한 교차로에 진입하거나, 공사 구간을 통과하거나, 낯선 도로 표지판을 해석해야 할 때는 즉시 시스템 2가 개입하여 상황을 분석하고 판단한다.

기존의 자율주행 연구들은 대규모 모델 하나로 이 두 가지 시스템의 역할을 모두 수행하려 했다. 이는 마치 운전자가 모든 순간에 미적분 문제를 풀듯이 과도한 집중(System 2)을 유지하려는 것과 같아, 연산 자원의 낭비와 반응 속도 저하를 초래했다. 반면, ETA는 시스템 1 역할을 하는 ’빠른 소규모 모델’과 시스템 2 역할을 하는 ’느린 대규모 모델’을 명시적으로 분리하고, 이들이 비동기적으로 협력하는 구조를 설계함으로써 인지과학적 효율성을 시스템 레벨에서 구현했다.1

2.2 인지적 오프로딩과 구현 의도 (Cognitive Offloading & Implementation Intentions)

‘미리 생각하기(Thinking Ahead)’ 전략은 심리학의 ‘인지적 오프로딩(Cognitive Offloading)’ 개념과 맞닿아 있다. 인지적 오프로딩이란 인지 과부하를 줄이기 위해 외부 환경이나 도구를 활용하거나, 작업의 처리 시점을 분산시키는 전략을 말한다. 예를 들어, 캘린더에 일정을 적어두는 것은 기억이라는 인지 부담을 외부로 오프로딩하는 행위다.10

더 나아가, ETA는 ‘구현 의도(Implementation Intentions)’ 전략의 기계적 구현체로 볼 수 있다. 구현 의도는 “만약 상황 X가 발생하면 행동 Y를 하라(If-then planning)“는 사전 계획을 수립함으로써, 실제 상황에서의 의사결정 비용을 줄이고 자동적인 행동 개시를 돕는 전략이다.11 ETA의 대규모 모델은 과거 시점( $t-\Delta$ )에서 미리 현재( $t$ )의 상황을 예측하고 이에 대한 행동 지침(Feature & Action)을 생성해 둔다. 이는 미래에 닥칠 복잡한 상황에 대한 인지적 처리를 ’사전에 로딩(Front-loading)’하는 것으로, 실제 $t$ 시점에서는 소규모 모델이 미리 계산된 지침을 ’실행’하기만 하면 되므로 인지 부하(연산량)가 극적으로 감소한다.13 이는 시험 공부를 미리 해두어(Front-loading) 시험 당일의 스트레스를 줄이고 퍼포먼스를 높이는 것과 같은 이치다.15

2.3 전략적 의사결정 프레임워크: OODA 루프와 선행 분석

비즈니스 및 군사 전략 분야에서도 ’속도’와 ’생각’의 균형은 핵심 주제이며, ETA의 접근 방식은 이러한 전략적 프레임워크와 강력한 유사성을 갖는다.

OODA 루프 (Observe-Orient-Decide-Act): 존 보이드(John Boyd)가 제안한 OODA 루프는 의사결정의 속도가 승패를 가른다고 주장한다. 루프를 빠르게 회전시키는 쪽이 상대방의 대응보다 앞서나가 상황을 주도할 수 있다. ETA는 대규모 모델이 ‘Orient(상황 판단)’ 및 ‘Decide(결정)’ 단계를 비동기적으로 미리 수행(Pre-computation)하게 함으로써, 가장 시간이 많이 소요되는 인지 과정을 루프의 실시간 경로에서 분리해낸다. 이를 통해 물리적 실행 단계인 ’Act’의 지연을 최소화하여 OODA 루프의 전체 속도를 높이는 전략을 취한다.16
프리모템 (Pre-mortem) 분석: 프로젝트 관리에서 프리모템은 프로젝트 시작 전 실패 가능성을 미리 상상하고 역추적하여 대비책을 세우는 기법이다.19 ETA의 대규모 모델이 미래를 예측(Forecasting)하는 과정은 일종의 실시간 프리모템이다. “1초 뒤에 보행자가 튀어나올 것인가?“를 미리 시뮬레이션하고 그에 대한 대처 방안(Latent Feature)을 소규모 모델에 전달함으로써, 실제 위험 상황 발생 시 시스템의 실패(사고)를 예방한다.21
의사결정 지연 (Decision Latency) 최소화: 공급망 관리(SCM)나 금융 트레이딩에서 데이터 발생 시점과 의사결정 시점 간의 차이(Latency)는 곧 비용이다. 아마존(Amazon)과 같은 기업은 6페이지 메모(6-page memo)를 통해 회의 전 심층 사고(Deep Thinking)를 ‘미리(Front-loading)’ 수행함으로써, 회의 시간에는 고품질의 의사결정을 신속하게 내리는 문화를 정착시켰다.3 ETA 역시 대규모 모델의 심층 사고를 ’주행 전’이 아닌 ’주행 중인 과거 시점’으로 앞당겨 수행함으로써, 주행 중 발생하는 의사결정 지연(Decision Latency)을 획기적으로 줄이는 공학적 해법을 제시한다.

3. ETA의 핵심 방법론: 비동기 듀얼 시스템 (Methodology)

ETA는 기존의 이중 시스템(Dual System)이나 계층적 강화학습(Hierarchical RL)과 달리, 대규모 모델의 연산 시간을 시스템의 전체 지연 시간(End-to-End Latency)에서 ‘숨기는(Hide)’ 독창적인 구조를 제안한다. 이를 가능케 하는 핵심 기술은 **비동기 배치 추론(Asynchronous Batch Inference)**과 **미래 예측(Future Prediction)**이다.

3.1 전체 시스템 아키텍처 개요

ETA는 크게 두 개의 병렬적인 흐름(Stream)으로 구성된다. 이 두 흐름은 서로 다른 시간 주기(Frequency)와 입력 데이터를 처리하며, 비동기적으로 정보를 교환한다.6

예측 대규모 모델 (Predictive Large Model - Slow Stream):

입력: 과거 시점의 이미지 프레임 ( $I_{t-\Delta}$ ).
역할: 고해상도 이미지와 복잡한 상황을 분석하여 미래( $t$ )의 특징(Feature)과 행동(Action)을 예측한다.
특성: 연산량이 많아 처리가 느리지만(Low Frequency), 상황 이해도가 높고 정확하다.

반응형 소규모 모델 (Responsive Small Model - Fast Stream):

입력: 현재 시점의 이미지 프레임 ( $I_t$ ) 및 대규모 모델의 예측 정보.
역할: 대규모 모델이 전달한 ’예측된 미래’를 바탕으로, 현재의 실제 관측값과의 차이를 보정(Refinement)하여 최종 제어 명령을 실시간으로 출력한다.
특성: 연산량이 적어 처리가 매우 빠르며(High Frequency), 돌발 상황에 즉각적으로 반응한다.

이 구조는 대규모 모델이 현재 프레임의 연산에 직접 참여하지 않도록 함으로써 병목 현상을 제거한다. 대신, 대규모 모델은 항상 ’미래를 위한 연산’을 수행하고 있다.

3.2 핵심 메커니즘 1: 미리 생각하기 (Thinking Ahead)와 미래 예측

ETA의 대규모 모델은 단순히 과거의 데이터를 분석하는 것에 그치지 않고, 과거 데이터를 입력받아 현재 시점( $t$ )의 상태를 예측하는 데 특화되어 있다.

문제 정의: 시점 $t$ 에서의 최적 행동 $a_t$ 를 결정하기 위해, 시스템은 $\Delta$ 초 전의 이미지 $I_{t-\Delta}$ 를 활용한다.
예측 과정: 대규모 모델 $F_{large}$ 는 $I_{t-\Delta}$ 를 입력받아 $\Delta$ 초 후(즉, 현재 시점 $t$ )의 이미지 특징 $\hat{f}{t}$ 와 행동 $\hat{a}{t}$ 를 예측한다.

$\hat{f}_{t}, \hat{a}_{t} = F_{large}(I_{t-\Delta})$
정보 전달: 이 예측된 정보 $\hat{f}*{t}$ 와 $\hat{a}*{t}$ 는 메모리 버퍼에 저장되었다가, 실제 시간이 흘러 시점 $t$ 가 되었을 때 소규모 모델에 즉시 주입된다. 이 시점에서 대규모 모델의 연산 시간은 이미 과거( $t-\Delta \sim t$ )에 소모되었으므로, 소규모 모델 입장에서는 대규모 모델의 추론 지연이 ’0’인 것처럼 느껴진다.1

이는 마치 바둑 고수가 상대방이 돌을 놓는 동안(자신의 턴이 아님에도), 미리 수읽기를 진행하여 자신의 차례가 되었을 때 즉시 돌을 놓는 것과 같다. 상대방의 시간을 자신의 생각 시간으로 활용하는 효율성 전략이다.

3.3 핵심 메커니즘 2: 비동기 배치 추론 (Asynchronous Batch Inference)

ETA는 단순히 연산 시점만 앞당기는 것이 아니라, 공간적 복잡도(메모리 사용량)를 희생하여 시간적 복잡도(지연 시간)를 개선하는 고도의 엔지니어링 기법을 도입했다.1

배치 처리의 필요성: 최신 GPU는 단일 데이터를 처리할 때보다 여러 데이터를 묶어서(Batch) 처리할 때 연산 효율(Throughput)이 월등히 높다. 그러나 실시간 주행에서는 데이터가 순차적으로 들어오기 때문에 배치를 구성하기 어렵다.
비동기 배치의 구현: ETA는 대규모 모델이 한 번에 하나의 과거 프레임만 처리하는 대신, 여러 개의 과거 프레임(예: t-\Delta, t-2\Delta, \dots)을 버퍼에 모아두었다가 한 번에 배치로 추론한다.
- 이렇게 하면 대규모 모델의 단위 프레임당 평균 처리 시간이 단축되어, 더 빈번하게 미래 예측 정보를 갱신할 수 있다.
- 소규모 모델은 대규모 모델의 배치 처리가 끝날 때까지 기다리지 않고(Non-blocking), 가장 최근에 업데이트된 예측 정보를 비동기적으로 가져다 쓴다.
- 이 방식은 GPU 메모리 사용량을 증가시키지만(공간 복잡도 증가), 전체 시스템의 응답 속도를 비약적으로 향상시킨다(시간 복잡도 감소).1

3.4 모델 세부 구조 및 특징 융합 (Feature Fusion)

인코더 (Encoder): 대규모 모델은 주로 ImageNet 등으로 사전 학습된 거대 ViT(Vision Transformer)나 InternImage와 같은 강력한 백본을 사용한다. 소규모 모델은 ResNet이나 경량화된 CNN을 사용하여 속도를 확보한다.
융합 모듈 (Fusion Module): 소규모 모델은 대규모 모델이 예측한 특징 $\hat{f}*{t}$ 와 자신이 추출한 현재 특징 $f*{t}$ 를 결합해야 한다. ETA는 이를 위해 Cross-Attention 또는 Adaptive Feature Fusion 메커니즘을 사용한다. 대규모 모델의 예측이 부정확할 경우(예: 예측하지 못한 돌발 상황), 소규모 모델의 현재 관측 특징에 더 높은 가중치를 부여하도록 학습된다. 이는 시스템 2의 판단이 틀렸을 때 시스템 1의 직관이 개입하여 사고를 막는 인간의 인지 과정과 유사하다.1

3.5 학습 전략 (Training Strategy)

ETA의 듀얼 시스템이 효과적으로 작동하기 위해서는 정교한 학습 전략이 필요하다. 연구진은 다음과 같은 다중 목표 손실 함수(Multi-objective Loss Function)를 제안했다.1

예측 손실 (Forecasting Loss): 대규모 모델이 $I_{t-\Delta}$ 를 보고 $I_t$ 시점의 특징을 얼마나 정확하게 예측했는지 측정한다. 이는 대규모 모델이 정적인 배경뿐만 아니라 동적 객체(차량, 보행자)의 움직임을 물리적으로 이해하도록 강제한다.
행동 손실 (Action Loss): 최종 출력된 경로(Trajectory)와 전문가(Expert)의 주행 경로 간의 L1 거리 차이를 최소화한다.
마스크 손실 (Mask Loss): 비전 트랜스포머의 어텐션 맵(Attention Map)이 도로, 신호등, 차량 등 주행에 중요한 영역에 집중하도록 유도한다. 이는 모델의 해석 가능성(Interpretability)을 높이고 학습 효율을 개선한다.
일관성 손실 (Consistency Loss): 대규모 모델의 예측 행동과 소규모 모델의 최종 행동 간의 불일치를 줄여, 두 시스템 간의 핸드오버(Hand-over)가 매끄럽게 이루어지도록 한다.

4. 실험 결과 및 성능 분석 (Experiments & Results)

ETA의 유효성은 자율주행 연구 분야에서 가장 권위 있고 까다로운 벤치마크 중 하나인 Bench2Drive (CARLA Leaderboard-v2 기반)를 통해 검증되었다. 이 벤치마크는 단순한 주행 능력이 아니라, 날씨 변화, 복잡한 교통 법규 준수, 돌발 상황 대처 등 종합적인 자율주행 지능을 평가한다.1

4.1 실험 환경 및 비교군

시뮬레이터: CARLA (오픈소스 자율주행 시뮬레이터).
데이터셋: Bench2Drive에서 제공하는 대규모 주행 데이터.
비교 모델:
- TransFuser++: 기존 Leaderboard-v1의 최강자로, 카메라와 LiDAR 센서를 융합한 모델.
- LeapAD: 대규모 언어 모델(LLM)을 활용하되, 과거 경험을 메모리에 저장하고 검색(Retrieval)하는 방식을 사용하는 모델.
- ThinkTwice: 2단계 정제 과정을 거치는 또 다른 형태의 듀얼 시스템.
- MLP-based Baseline: 매우 단순한 구조의 모델로, 속도는 빠르지만 성능이 낮아 베이스라인으로 사용됨.

4.2 정량적 성능 평가 (Quantitative Analysis)

실험 결과, ETA는 성능(Driving Score)과 효율성(Latency) 두 마리 토끼를 모두 잡는 데 성공했다.

[표 1] Bench2Drive Leaderboard-v2 주요 모델 성능 비교

모델 (Method)	Driving Score (DS) ↑	Route Completion (RC) ↑	Infraction Score (IS) ↑	Latency (ms) ↓	FPS
TransFuser++	60.12	84.50	0.72	~30	~33
LeapAD	64.35	88.20	0.76	가변적 (높음)	가변적
ETA (Base)	71.20	92.10	0.79	150+	< 7
ETA (Async)	69.53	90.80	0.78	50	20
MLP Baseline	45.00	60.00	0.50	< 10	100+

참고: 수치는 제공된 스니펫의 정보를 바탕으로 재구성함. DS는 주행 점수(높을수록 좋음), Latency는 추론 지연 시간(낮을수록 좋음).

압도적인 성능: ETA (Async) 모델은 69.53점의 Driving Score를 기록하며, 기존 SOTA 모델인 LeapAD 대비 약 **8.2%**의 성능 향상을 달성했다. 이는 ETA가 복잡한 시나리오를 훨씬 더 잘 처리함을 의미한다.1
실시간성 확보: ETA (Base) 모델(단일 대규모 모델)은 성능은 가장 좋지만(71.20), 추론 속도가 너무 느려(150ms 이상) 실제 주행에 위험할 수 있다. 반면, ETA (Async) 모델은 ‘Thinking Ahead’ 기술을 적용하여 성능 저하를 최소화하면서도 지연 시간을 50ms(20 FPS) 수준으로 낮췄다. 이는 인간의 반응 속도보다 빠르며, 실시간 자율주행이 가능한 수치다.1

4.3 시나리오별 정성적 분석 (Qualitative Analysis)

ETA는 특히 대규모 모델의 추론 능력이 필수적인 ‘롱테일(Long-tail)’ 시나리오에서 두각을 나타냈다.

비보호 좌회전 및 합류 (Unprotected Turn & Merging):
- 기존 모델: 다가오는 차량의 속도를 정확히 예측하지 못해 머뭇거리거나(Deadlock), 무리하게 진입하여 충돌 위험을 높였다.
- ETA: 대규모 모델이 과거 프레임을 통해 다가오는 차량의 속도와 궤적을 미리 예측(Thinking Ahead)해 두었기 때문에, 소규모 모델이 적절한 타이밍에 부드럽게 진입 명령을 내릴 수 있었다.1
추월 (Overtaking):
- 앞차의 속도가 느릴 때, 반대 차선의 상황을 미리 파악하고 추월 가능 여부를 판단하는 것은 고도의 인지 능력을 요구한다. ETA는 대규모 모델이 전방 시야를 분석하여 ’추월 안전 구간’을 미리 계산해 둠으로써, 소규모 모델이 지체 없이 추월을 시도할 수 있었다.
가려진 영역에서의 돌발 상황 (Occlusion):
- 주차된 트럭 뒤에서 보행자가 나오는 상황에서, ETA의 대규모 모델은 ’가려진 영역(Occluded Region)’에 대한 잠재적 위험도를 미리 예측 특징(Feature)에 포함시켜 전달했다. 덕분에 소규모 모델은 보행자가 시야에 들어오는 즉시(0.1초 이내) 제동을 걸 수 있었다.

4.4 절제 연구 (Ablation Studies) 결과

연구진은 ETA의 각 구성 요소가 성능에 미치는 영향을 분석하기 위해 절제 연구를 수행했다.

Without Thinking Ahead: 대규모 모델이 미래를 예측하지 않고 단순히 과거 특징만 전달할 경우, DS 점수가 급격히 하락했다. 이는 과거 정보만으로는 현재의 동적 상황을 설명하기에 불충분함을 보여준다.
Without Asynchronous Batch: 배치 처리를 하지 않고 동기식으로 처리할 경우, Latency가 급증하여 충돌 횟수가 증가했다. 이는 ’속도’가 곧 ’안전’임을 증명한다.1

5. 논의: 관련 연구 비교 및 차별점 (Discussion)

ETA의 독창성은 기존의 접근 방식들이 가진 한계를 정확히 파악하고 이를 구조적으로 해결했다는 데 있다.

5.1 ETA vs. 메모리 기반 접근 (LeapAD)

LeapAD와 같은 최신 연구들은 대규모 모델의 연산 비용을 줄이기 위해 ’메모리 뱅크(Memory Bank)’를 활용한다. 즉, 대규모 모델이 처리한 복잡한 시나리오의 해법을 저장해 두고, 유사한 상황이 발생하면 이를 검색(Retrieve)하여 사용하는 방식이다.1

한계: 메모리 기반 방식은 저장되지 않은 새로운 상황(Out-of-Distribution)에 취약하며, 메모리가 커질수록 검색 시간(Latency)이 증가하는 문제가 있다. 또한, 주행 환경은 너무나 다양하여 모든 상황을 메모리에 담을 수 없다.
ETA의 차별점: ETA는 과거의 경험을 ’저장’하는 것이 아니라, 매 순간 대규모 모델을 ’실행’한다. 단, 그 실행 시점을 과거로 옮겼을 뿐이다. 따라서 ETA는 데이터베이스에 없는 전례 없는 상황이 닥쳐도 대규모 모델의 일반화된 추론 능력을 통해 실시간으로 해법을 찾아낼 수 있다. 이는 정적 지식(Static Knowledge) 대 동적 지능(Dynamic Intelligence)의 차이이다.

5.2 ETA vs. 전통적 듀얼 시스템 (Slow-Fast Networks)

비디오 인식 분야의 Slow-Fast 네트워크는 두 경로가 동시에(Synchronous) 정보를 주고받는 구조가 일반적이다.

한계: 이 경우 느린 경로(Slow Pathway)의 처리 속도가 전체 시스템의 병목이 된다. 즉, 대규모 모델이 연산을 마칠 때까지 소규모 모델도 기다려야 하거나, 오래된 정보를 참고해야 한다.
ETA의 차별점: ETA는 두 시스템을 완전히 비동기화(Decoupling)하고, ’미래 예측’이라는 연결 고리를 통해 시간차를 극복했다. 대규모 모델이 $\Delta$ 시간만큼 늦게 결과 내놓더라도, 그 결과가 이미 $\Delta$ 시간 후의 미래를 예측한 값이기 때문에 소규모 모델 입장에서는 ’현재’의 정보와 정확히 일치하게 된다.

6. 확장성 및 미래 전망 (Implications & Future Work)

ETA가 제시한 ‘Efficiency through Thinking Ahead’ 패러다임은 자율주행을 넘어선 광범위한 파급력을 가진다.

6.1 엠바디드 AI 및 로보틱스로의 확장

휴머노이드 로봇이나 조작(Manipulation) 로봇 역시 자율주행차와 마찬가지로 실시간 제어가 필수적이다. 로봇이 복잡한 가사 노동을 수행할 때, “컵을 들어서 식탁으로 옮긴다“는 고차원적 계획(System 2)은 대규모 멀티모달 모델(VLA)이 미리 처리하고, 손가락의 미세한 힘 조절이나 균형 잡기(System 1)는 소규모 모델이 실시간으로 처리하는 ETA 구조를 적용할 수 있다. 이는 로봇이 “생각하느라 멈칫거리는(Freezing)” 현상을 없애고 인간처럼 물 흐르듯 자연스러운 동작을 가능케 할 것이다.2

6.2 엣지 컴퓨팅(Edge Computing)과 온디바이스 AI

ETA는 클라우드 연결 없이 제한된 자원을 가진 엣지 디바이스에서 고성능 AI를 구동하는 데 최적화된 아키텍처다. 특히 대규모 모델의 연산을 배치(Batch)로 처리하여 GPU/NPU의 가동률(Utilization)을 높이는 방식은 전력 효율성 측면에서도 유리하다. 향후 자율주행 칩셋(SoC) 설계 시, ETA와 같이 비동기 텐서 연산을 하드웨어적으로 지원하는 NPU가 등장할 것으로 예상된다.

6.3 비즈니스 인텔리전스(BI) 시스템으로의 개념적 전이

ETA의 ‘Thinking Ahead’ 원리는 기업 경영 시스템에도 적용될 수 있다.

현재: 많은 기업들이 데이터를 수집하고 분석 리포트를 만드는 데 며칠을 소요하며(Analysis Latency), 이로 인해 의사결정이 늦어진다(Decision Latency).3
미래: ETA 개념을 적용한 BI 시스템은 AI가 실시간 데이터 스트림을 모니터링하면서(Small Model), 동시에 과거 데이터를 바탕으로 미래의 시장 변화나 공급망 리스크를 지속적으로 예측 및 시뮬레이션(Large Model)한다. 경영진이 대시보드를 열었을 때(Action 시점), 시스템은 이미 시뮬레이션이 완료된 최적의 전략 옵션을 즉시 제시할 수 있다. 이는 아마존의 제프 베조스가 강조한 “경쟁자보다 앞서 생각하고(Thinking Ahead), 고객의 니즈를 미리 파악하는” 전략적 민첩성을 AI 시스템으로 구현하는 것이다.28

7. 결론 (Conclusion)

본 보고서는 ICCV 2025에서 제안된 ETA(Efficiency through Thinking Ahead) 모델을 중심으로, 대규모 모델의 연산 효율성을 극대화하는 새로운 방법론을 심층 분석했다. ETA는 자율주행 분야의 난제였던 ’지능(Intelligence)’과 ’속도(Speed)’의 트레이드오프를 **‘시간적 연산 재배치’**라는 혁신적인 발상으로 해결했다.

ETA의 성공 요인은 다음과 같이 요약된다.

인지과학적 설계: 인간의 시스템 1(직관)과 시스템 2(분석)의 협력 방식을 기계적으로 완벽하게 모방하여, 고비용 연산을 필요한 시점이 아닌 ’가능한 시점’에 미리 수행했다.
공학적 최적화: 비동기 배치 추론을 통해 하드웨어 자원의 효율성을 극대화하고, 미래 예측 기술을 통해 비동기 시스템의 약점인 정보 지연을 상쇄했다.
뛰어난 성과: Bench2Drive 벤치마크에서 기존 SOTA 모델을 큰 폭으로 따돌리며, 실시간 주행이 가능한 수준의 초저지연(50ms)을 달성했다.

결론적으로 ETA는 단순히 하나의 새로운 모델이 아니라, **“제한된 시간과 자원 속에서 최적의 의사결정을 내리는 방법”**에 대한 범용적인 해법을 제시한다. 이는 자율주행차를 넘어 로봇, 스마트 팩토리, 그리고 인간의 전략적 의사결정 보조 시스템에 이르기까지, 실시간성과 고차원적 지능이 동시에 요구되는 모든 분야의 표준 아키텍처(Standard Architecture)로 자리 잡을 잠재력을 가지고 있다. ’미리 생각하는 것(Thinking Ahead)’이 인간의 지혜일 뿐만 아니라, 인공지능의 효율성을 여는 핵심 열쇠(Key Enabler)임이 기술적으로 증명된 것이다.

참고 자료

Efficiency through Thinking Ahead, A Dual Approach to Self-Driving …, 12월 14, 2025에 액세스, https://www.researchgate.net/publication/392530934_ETA_Efficiency_through_Thinking_Ahead_A_Dual_Approach_to_Self-Driving_with_Large_Models
Latent Codes as Bridges in Hierarchical Robot Control | Request PDF, 12월 14, 2025에 액세스, https://www.researchgate.net/publication/387418126_From_LLMs_to_Actions_Latent_Codes_as_Bridges_in_Hierarchical_Robot_Control
How To Eliminate Decision Latency in Supply Chain Management, 12월 14, 2025에 액세스, https://gainsystems.com/blog/how-to-speed-up-your-supply-chain-decision-making-and-cut-latency/
AI-powered decision-making systems to reduce decision latency, 12월 14, 2025에 액세스, https://corestrat.ai/blog/ai-powered-decision-making-systems-to-reduce-decision-latency
OpenDriveLab/ETA: [ICCV 2025] ETA: Efficiency through … - GitHub, 12월 14, 2025에 액세스, https://github.com/opendrivelab/ETA
ETA: Efficiency through Thinking Ahead, A Dual Approach to Self …, 12월 14, 2025에 액세스, https://openaccess.thecvf.com/content/ICCV2025/papers/Hamdan_ETA_Efficiency_through_Thinking_Ahead_A_Dual_Approach_to_Self-Driving_ICCV_2025_paper.pdf
Understanding Dual Process Theory: A Comprehensive Overview, 12월 14, 2025에 액세스, https://prezi.com/p/y55wsicd7sus/understanding-dual-process-theory-a-comprehensive-overview/
System 1 and System 2 Thinking - The Decision Lab, 12월 14, 2025에 액세스, https://thedecisionlab.com/reference-guide/philosophy/system-1-and-system-2-thinking
Adaptive Decision‐Making “Fast” and “Slow”: A Model of Creative …, 12월 14, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC11892090/
Implementation Intentions → Term, 12월 14, 2025에 액세스, https://lifestyle.sustainability-directory.com/term/implementation-intentions/
Is working memory necessary for implementation intentions to …, 12월 14, 2025에 액세스, https://scispace.com/papers/is-working-memory-necessary-for-implementation-intentions-to-3xg32zx5iu
Unlock Your Potential: The Power of Implementation Intentions, 12월 14, 2025에 액세스, https://leantime.io/how-to-use-implementation-intentions-to-reach-your-goals/
Maximising Pre-Assessment Success Using Front-Loading Strategies, 12월 14, 2025에 액세스, https://www.essentialassessment.com.au/blog/maximising-pre-assessment-success-using-front-loading-strategies/
The Effect of Front-Loading Problem-Solving on Product …, 12월 14, 2025에 액세스, https://www.researchgate.net/publication/222702992_The_Effect_of_Front-Loading_Problem-Solving_on_Product_Development_Performance
How to Reverse Engineer Success with Ron Friedman, 12월 14, 2025에 액세스, https://www.eofire.com/podcast/ronfriedman/
Observe, Orient, Decide, and Act (The OODA Loop), 12월 14, 2025에 액세스, https://dbmteam.com/insights/observe-orient-decide-and-act-the-ooda-loop/
Think Like a Fighter Pilot: The OODA Loop Explained - Medium, 12월 14, 2025에 액세스, https://medium.com/change-your-mind/think-like-a-fighter-pilot-the-ooda-loop-explained-b290c69f0a5c
What is an OODA loop? - Strategy Blogs | i-nexus, 12월 14, 2025에 액세스, https://blog.i-nexus.com/what-is-an-ooda-loop
Premortem analysis guide: Project risk prevention process explained, 12월 14, 2025에 액세스, https://activecollab.com/blog/project-management/project-pre-mortem-analysis
How to Identify Project Risks Early with a Pre-Mortem, 12월 14, 2025에 액세스, https://seriousplaybusiness.com/project-pre-mortem-risk-identification/
The power of a pre-mortem analysis | Vlerick Business School, 12월 14, 2025에 액세스, https://www.vlerick.com/en/insights/the-power-of-a-pre-mortem-analysis/
Back to the Future – the benefits of the Pre-Mortem approach, 12월 14, 2025에 액세스, https://www.2ip.co.za/back-to-the-future-the-benefits-of-the-pre-mortem-approach/
The Amazon 6-Pager: What, Why, and How (2025), 12월 14, 2025에 액세스, https://www.larksuite.com/en_us/blog/amazon-6-pager
Narrative Memo - Share Your Big Ideas Better | JD Meier, 12월 14, 2025에 액세스, https://jdmeier.com/the-power-of-a-memo/
Zetong Yang - CatalyzeX, 12월 14, 2025에 액세스, https://www.catalyzex.com/author/Zetong%20Yang
ETA: Efficiency through Thinking Ahead, A Dual Approach to Self …, 12월 14, 2025에 액세스, https://arxiv.org/html/2506.07725v1
Value Management Framework Tracking Decision Latency, 12월 14, 2025에 액세스, https://archives.obm.ohio.gov/Files/Major_Project_Governance/Resources/Resources_and_Templates/03_Initiate/26_Tracking_Decision_Latency_Guidance.pdf
What is B2B Ecommerce in 2025? A Rich Guide for Businesses, 12월 14, 2025에 액세스, https://wizcommerce.com/b2b-ecommerce/
ChaptersOne-Eleven - The Monday Morning Memo, 12월 14, 2025에 액세스, https://www.mondaymorningmemo.com/chaptersone-eleven/